许多具有挑战性的现实世界问题需要部署合奏多个互补学习模型,以达到可接受的绩效水平。虽然有效,但将整个合奏应用于每个样本都是昂贵且通常不必要的。深钢筋学习(DRL)提供了一种具有成本效益的替代方案,其中检测器是根据其前辈的输出动态选择的,其实用性加权其计算成本。尽管它们具有潜力,但基于DRL的解决方案并未在这种能力中广泛使用,部分原因是在为每个新任务配置奖励功能,DRL代理对数据变化的不可预测反应以及无法使用常见的反应的困难。性能指标(例如TPR/FPR)指导该算法的性能。在这项研究中,我们提出了用于微调和校准基于DRL的策略的方法,以便它们可以满足多个绩效目标。此外,我们提出了一种将有效的安全策略从一个数据集传输到另一个数据集的方法。最后,我们证明我们的方法对对抗性攻击非常强大。
translated by 谷歌翻译